组织病理学图像的出现取决于组织类型,染色和数字化过程。这些因素因来源而异,是域转移问题的潜在原因。由于这个问题,尽管深度学习模型在计算病理学中取得了巨大的成功,但在特定领域训练的模型当我们将其应用于另一个领域时,仍可能会表现出色。为了克服这一点,我们提出了一种称为PatchShuffling的新扩展,并为预训练的深度学习模型而被称为Impash的新型自我监视的对比学习框架。使用这些,我们获得了一个RESNET50编码器,该编码器可以提取对域移位抗性的图像表示。我们通过使用其他域普通化技术来比较了我们的派生表示形式,它们通过将它们用于结直肠组织图像的跨域分类。我们表明,所提出的方法优于其他传统的组织学领域适应和最先进的自我监督学习方法。代码可在以下网址获得:https://github.com/trinhvg/impash。
translated by 谷歌翻译
能够创建一个可以与人类就他们所观看的东西进行有意义的对话的系统,这将是一项技术壮举。针对该目标的设置作为视频对话任务表示,要求系统在正在进行的对话框中对问题产生自然话语。该任务带来了伟大的视觉,语言和推理挑战,如果没有适当的表示方案,可以轻松克服支持高级推理的视频和对话。为了应对这些挑战,我们提出了一个新的以对象为中心的视频对话框架,该框架支持神经推理称为成本 - 代表时空中有关对象的对话。在这里,视频中的动态时空视觉内容首先解析为对象轨迹。鉴于此视频抽象,成本维护并跟踪与对象相关的对话框状态,这些对话框在收到新问题后会更新。对象相互作用是动态和条件地推断出每个问题的,并且它们是它们之间关系推理的基础。成本还保留了以前答案的历史记录,这允许检索相关的以对象为中心的信息以丰富答案形成过程。然后,语言生产以逐步进行,进入当前话语,现有对话和当前问题的背景。我们评估了DSTC7和DSTC8基准的成本,证明了其对最先进的竞争力。
translated by 谷歌翻译
域适应(DA)从严格的理论作品中获益,研究其富有识别特征和各个方面,例如学习领域 - 不变的表示及其权衡。然而,由于多个源域的参与和训练期间目标域的潜在不可用的域,因此似乎不是这种源DA和域泛化(DG)设置的情况非常复杂和复杂。在本文中,我们为目标一般损失开发了新的上限,吸引我们来定义两种域名不变的表示。我们进一步研究了利弊以及执行学习每个领域不变的表示的权衡。最后,我们进行实验检查这些陈述的权衡,以便在实践中提供有关如何使用它们的实践提示,并探索我们发达理论的其他有趣性质。
translated by 谷歌翻译
Deep autoencoder has been extensively used for anomaly detection. Training on the normal data, the autoencoder is expected to produce higher reconstruction error for the abnormal inputs than the normal ones, which is adopted as a criterion for identifying anomalies. However, this assumption does not always hold in practice. It has been observed that sometimes the autoencoder "generalizes" so well that it can also reconstruct anomalies well, leading to the miss detection of anomalies. To mitigate this drawback for autoencoder based anomaly detector, we propose to augment the autoencoder with a memory module and develop an improved autoencoder called memory-augmented autoencoder, i.e. MemAE. Given an input, MemAE firstly obtains the encoding from the encoder and then uses it as a query to retrieve the most relevant memory items for reconstruction. At the training stage, the memory contents are updated and are encouraged to represent the prototypical elements of the normal data. At the test stage, the learned memory will be fixed, and the reconstruction is obtained from a few selected memory records of the normal data. The reconstruction will thus tend to be close to a normal sample. Thus the reconstructed errors on anomalies will be strengthened for anomaly detection. MemAE is free of assumptions on the data type and thus general to be applied to different tasks. Experiments on various datasets prove the excellent generalization and high effectiveness of the proposed MemAE.
translated by 谷歌翻译
By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks. The project's website and videos can be found at robotics-transformer.github.io
translated by 谷歌翻译
Recent 3D-based manipulation methods either directly predict the grasp pose using 3D neural networks, or solve the grasp pose using similar objects retrieved from shape databases. However, the former faces generalizability challenges when testing with new robot arms or unseen objects; and the latter assumes that similar objects exist in the databases. We hypothesize that recent 3D modeling methods provides a path towards building digital replica of the evaluation scene that affords physical simulation and supports robust manipulation algorithm learning. We propose to reconstruct high-quality meshes from real-world point clouds using state-of-the-art neural surface reconstruction method (the Real2Sim step). Because most simulators take meshes for fast simulation, the reconstructed meshes enable grasp pose labels generation without human efforts. The generated labels can train grasp network that performs robustly in the real evaluation scene (the Sim2Real step). In synthetic and real experiments, we show that the Real2Sim2Real pipeline performs better than baseline grasp networks trained with a large dataset and a grasp sampling method with retrieval-based reconstruction. The benefit of the Real2Sim2Real pipeline comes from 1) decoupling scene modeling and grasp sampling into sub-problems, and 2) both sub-problems can be solved with sufficiently high quality using recent 3D learning algorithms and mesh-based physical simulation techniques.
translated by 谷歌翻译
尽管两阶段矢量量化(VQ)生成模型允许合成高保真性和高分辨率图像,但其量化操作员将图像中的相似贴片编码为相同的索引,从而为相似的相邻区域重复使用现有的解码器体系结构的相似相似区域的重复伪像。为了解决这个问题,我们建议将空间条件的归一化结合起来,以调节量化的向量,以便将空间变体信息插入嵌入式索引图中,从而鼓励解码器生成更真实的图像。此外,我们使用多通道量化来增加离散代码的重组能力,而无需增加模型和代码簿的成本。此外,为了在第二阶段生成离散令牌,我们采用掩盖的生成图像变压器(MaskGit)来学习压缩潜在空间中的基础先验分布,该分布比常规自动回归模型快得多。两个基准数据集的实验表明,我们提出的调制VQGAN能够大大提高重建的图像质量,并提供高保真图像的产生。
translated by 谷歌翻译
在任何文本到语音(TTS)系统中,将书面文本转换为口语形式是一个必不可少的问题。但是,为现实世界的TTS系统构建有效的文本归一化解决方案面临两个主要挑战:(1)非标准单词(NSWS)的语义歧义(例如,数字,日期,范围,范围,得分,缩写)和(2 )将NSWS转换为明显的音节,例如URL,电子邮件地址,主题标签和联系人名称。在本文中,我们提出了一种应对这些挑战的新两相规范化方法。首先,一个基于模型的标签机旨在检测NSWS。然后,根据新南威尔士州类型的不同,基于规则的标准器将这些新南威尔士州的最终语言形式扩展到其最终的口头形式。我们使用条件随机场(CRF),Bilstm-CNN-CRF和Bert-Bigru-CRF模型进行了三个经验实验,以进行新南威尔士州检测,包括从越南新闻文章中提取的5819个句子,包括5819个句子。在第二阶段,我们提出了一种基于前向词典的最大匹配算法,以拆分主题标签,电子邮件,URL和联系人名称。标记阶段的实验结果表明,Bilstm-CNN-CRF和CRF模型的平均F1得分高于90.00%,而Bert-Bigru-CRF模型则达到95.00%的最高F1。总体而言,我们的方法的句子错误率较低,CRF为8.15%,而Bilstm-CNN-CRF标记器为7.11%,而Bert-Bigru-CRF Tagger只有6.67%。
translated by 谷歌翻译
跨核心联合学习利用了几百个可靠的数据筒仓,并具有高速访问链接,共同训练模型。尽管这种方法成为联合学习中的流行环境,但设计出强大的拓扑以减少训练时间仍然是一个开放的问题。在本文中,我们提出了一种用于跨核心联合学习的新的多编码拓扑。我们首先使用覆盖图构造多式图。然后,我们将此多数分析为具有孤立节点的不同简单图。隔离节点的存在使我们能够执行模型聚合而无需等待其他节点,从而减少训练时间。我们进一步提出了一种新的分布式学习算法,以与我们的多编码拓扑一起使用。公共数据集的密集实验表明,与最近的最新拓扑相比,我们提出的方法大大减少了训练时间,同时确保收敛并保持模型的准确性。
translated by 谷歌翻译
在本文中,我们研究了以自我为中心的场景理解的问题,即从以自我为中心的图像预测深度和表面正常状态。以自我为中心的场景的理解构成了前所未有的挑战:(1)由于头部运动较大,这些图像是从非规范观点(即倾斜图像)中拍摄的,其中现有的几何预测模型不适用; (2)包括手在内的动态前景对象构成了很大一部分的视觉场景。这些挑战限制了从大型室内数据集中学到的现有模型的性能,例如Scannet和Nyuv2,它们主要包括静态场景的直立图像。我们提出了一个多模式的空间整流器,该空间整流器将以自我为中心的图像稳定到一组参考方向上,该图像允许学习连贯的视觉表示。与通常产生过多的以自我为中心图像的透视图的单形空间整流器不同,多模式的空间整流器从多个方向学习,可以最大程度地减少透视图的影响。为了了解动态前景对象的视觉表示,我们提出了一个名为Edina的新数据集(每天的室内活动中以Egintric的深度),该数据集包含超过500K的同步RGBD框架和重力方向。配备了多模式空间整流器和EDINA数据集,我们提出的关于单视深度和表面正常估计的方法明显优于我们的EDINA数据集上的基准,而且在其他流行的EgeCentric数据集中,例如FPHA(FPHA)(FPHA) )和史诗般的kitchens。
translated by 谷歌翻译